home *** CD-ROM | disk | FTP | other *** search
/ Monster Media 1996 #15 / Monster Media Number 15 (Monster Media)(July 1996).ISO / os2 / pms_103.zip / README.UNH < prev    next >
Text File  |  1996-04-23  |  2KB  |  41 lines

  1.  
  2. This is an OS/2 command line utility to strip HTML codes from
  3. files saved from the WebX or other web browsers. 
  4.  
  5. UNH 2.02  HTML stripper by Don Hawkinson  dwhawk@southwind.net
  6.  
  7. usage:  ..\unh  file1 file2 <file3>
  8.  
  9.     file1 == html file
  10.     file2 == stripped text output file
  11.     file3 == URLs from html source file - optional
  12.  
  13.  
  14. The command line utility UNH does not check for the
  15. existance of the output file, and will overwrite any existing
  16. file. UNH is HPFS aware, so any valid OS/2 file namens may be used.
  17.  
  18. Character Entity Sets or tags
  19.  
  20. The HTML specification defines Character Entity Sets or tags
  21. to represent particular graphic characters which have special
  22. meanings in places in the markup, or may not be part of the
  23. character set available to the writer. UNH does not attempt
  24. to scan for all of the possible tags, but does try to resolve
  25. the most common tags.
  26.  
  27. This version of UNH has support for codepages 437 and 850
  28. and if codepage 850 is in use, the 850 character set is used.
  29. The codepages only make a difference when  &xxxx; tags are
  30. present in the file. If the correct character or an acceptable
  31. alternate is not available, then the &xxxx; tag will be left
  32. in the file.  
  33.  
  34. Only a few of the &#nnn; tags are supported.  They do not seem to
  35. be widely used and scanning for all of them will increase the time
  36. it takes to process an .HTML or .HTM file.
  37.  
  38. The command line utility UNH.EXE uses the same logic as PMStripper
  39. to strip the HTML codes from files.
  40.  
  41.